(23)Python的基礎介紹和爬蟲

python

409261275 2022-10-14 22:44:47 ‧ 1270 瀏覽

Python 網路爬蟲 Web Crawler (上)

什麼是網路爬蟲?
網路爬蟲是一個透過程式自動抓取網站資料的過程，在這資訊爆炸的時代中，資料的收集是相當重要的工作項目之一，但如果透過人工的方式來收集網站資料，效率低之外也會花費掉非常多的時間

網路爬蟲的應用
搜尋引擎像是 Google ,yahoo 等應該是網絡爬蟲最成功的應用了，它們透過爬蟲在網際網路中收集優質的網站與內容，所以當用戶在搜尋引擎上搜尋關鍵字時，就能夠找出相關的網站資料

網路爬蟲的原理
1.請求網頁內容
2.抓取所需資料
3.儲存資料

網路爬蟲的基本流程
1.連接到特定網址，抓取資料
2.解析資料，取的實際想要的部分

抓取資料
關鍵心法
盡可能地讓程式模仿一個普通使用者的樣子

解析資料
json格式資料
使用內建的json模組即可

但網路上的網站大部分的格式卻為HTML的格式
如果資料是這種格式我們就必須使用第三方套件BeautifulSoup 來做解析

安裝套件
PIP套件管理工具
安裝Python時，就一起安裝在電腦裡了

安裝BeautifulSoup
可以用PIP套件管理工具去安裝第三方套件BeautifulSoup
我們只需要使用這個指令
pip install beautifulsoup4
就可以成功安裝

下一篇會用程式來實作網路爬蟲抓取資料

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

IT邦幫忙